Octubre 30 de 2020

Introducción

Hasta ahora solo hemos considerado asociaciones lineales entre X e Y, donde un aumento de delta en una variable explicativa continua \(x_{i}\) produce el mismo cambio \(\beta_{1}\) en y para todos los valores de \(x_{i}\). \(\beta_{1}\) a veces se denomina “Slope” porque es un gradiente lineal. Una ecuación de regresión lineal simple con una sola pendiente lineal es:

Regresión lineal simple: Consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables.

\[Y=\beta_{0}+\beta_{1}X_{1}+\epsilon\]

  • \(\beta_{0}:\) La ordenada en el origen.

  • \(\beta_{1}:\) La pendiente.

  • \(\epsilon:\) El error aleatorio.

Regresión lineal múltiple: Es una extensión de la regresión lineal simple. Permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta \((Y)\) se determina a partir de un conjunto de variables independientes llamadas predictores \((X_{1}, X_{2}, X_{3},...)\).

\[Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+...+\beta_{n}X_{ni})+\epsilon_{i}\]

Centramiento de las variables

En la práctica, cuando se utilizan transformaciones como la cuadrática, que pueden crear valores grandes de \(x_{i}\), puede resultar útil centrar las variables explicativas utilizando su media (x) y escalarlas utilizando su desviación estándar (de). Para mayor comodidad de notación, primero creamos una versión centrada y escalada de \(x_i\):

\[\tilde{x}_{i}=\displaystyle{\frac{(x_{i}-\bar{x}_{i})}{sd}}\]

Ventajas

  • Una ventaja adicional del centrado es que la estimación de la intersección \(\beta_{0}\) ahora relaciona el valor de y promedio con el valor de \(x\) promedio en lugar del valor de \(y\) promedio cuando \(x\) es cero, lo que puede no ser significativo si \(x\) no puede ser cero. Ejemplo: El peso de una persona.

  • Además, los parámetros de “Slope” ahora representan un cambio de una desviación estándar que es potencialmente más significativo que un cambio de una sola unidad que puede ser muy pequeño o grande.

  • Por último, escalar por la desviación estándar facilita la comparación de la importancia de las variables.

Regresión polinómica

Antes de aplicar un modelo de regresión lineal simple, se hace necesario conocer si los datos se pueden ajustar a un modelo de regresión lineal, es decir conocer el grado de asociación entre la variable de respuesta y las variables predictoras y a su vez poder determinar la proporción de variabilidad existente entre la variable dependiente explicada por la variable independiente.

Una asociación en forma de U se puede modelar agregando una versión cuadrática de la variable y un parámetro \(\beta\) adicional:

Regresión polinómica: Incorporan flexibilidad a un modelo lineal introduciendo nuevos predictores obtenidos al elevar a distintas potencias el predictor original.

\[y_{i}=\beta_{0}+\beta_{1}x_{i}+\beta_{2}x^{2}_{i}+\beta_{3}x^{3}_{i}+...+\beta_{d}x^{d}_{i}+\epsilon_{i}\]

Y se ajusta al modelo:

\[E(Y_{i})=\beta_{0}+\beta_{1}\tilde{x}_{i}+\beta_{2}\tilde{x}^{2}_{i}\]

Modelos lineales generalizados (GLM)

Los modelos polinómicos se pueden ajustar mediante regresión lineal por mínimos cuadrados ya que, aunque generan modelos no lineales, su ecuación no deja de ser una ecuación lineal con predictores \(x, x_2, x_3, ..., x_d\).

Por esta misma razón, las funciones polinómicas pueden emplearse en regresión logística para predecir respuestas binarias. Solo es necesario realizar una transformación logit.

\[P(y_{i}>Y|x_{i}=X)=\displaystyle{\frac{exp \left( \beta_{0}+\beta_{1}x_{i}+\beta_{2}x^{2}_{i}+\beta_{3}x^{3}_{i}+...+\beta_{d}x^{d}_{i}\right)}{1+exp \left( \beta_{0}+\beta_{1}x_{i}+\beta_{2}x^{2}_{i}+\beta_{3}x^{3}_{i}+...+\beta_{d}x^{d}_{i}\right)}}\]

Recomendaciones

  • En el libro Introduction to Statistical Learning no aconsejan el uso de modelos polinómicos con grado mayor de 3 o 4 debido a un exceso de flexibilidad (overfitting), principalmente en los extremos del predictor X.

  • La selección del grado de polinomio óptimo puede hacerse mediante cross validation.

Correlación lineal

Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.

\[Covarianza \hspace{0.2cm} muestral=Cov(X,Y)= \frac{\displaystyle\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{N-1}\] siendo \(\bar{x}\) e \(\bar{y}\) la media de cada variable y \(x_i\) e \(y_i\) el valor de las variables para la observación i.

Características:

  • Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.

  • Se emplean como medida de fuerza de asociación (tamaño del efecto): -0: asociación nula. -0.1: asociación pequeña. -0.3: asociación mediana. -0.5: asociación moderada. -0.7: asociación alta. -0.9: asociación muy alta.

Las principales diferencias entre estos tres coeficientes de asociación son:

  • La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.

  • La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico.

  • La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas ligaduras.

Coeficiente de correlación de Pearson

Se utiliza para estudiar la asociación entre un factor de estudio y una variable de respuesta cuantitativa, mide el grado de asociación entre dos variables tomando valores entre \(-1\) y \(1\).

  • Población:

\[\rho=\frac{Cov(X,Y)}{\sigma_{x}\sigma_{y}} \] + Muestra:

\[r_{xy}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}} \]

Coeficiente de correlación de Spearman

\[r_{s}=1-\frac{6\sum d^{2}_{i}}{n(n^{2}-1)}\]

Siendo \(d_{i}\) la distancia entre los rangos de cada observación \((x_{i}−y_{i})\) y \(n\) el número de observaciones.

Coeficiente Tau de Kendall

\[\tau=\frac{C-D}{\displaystyle\frac{1}{2}n(n-1)}\]

Siendo \(C\) el número de pares concordantes, aquellos en los que el rango de la segunda variable es mayor que el rango de la primera variable. \(D\) el número de pares discordantes, cuando el rango de la segunda es igual o menor que el rango de la primera variable.

Ejemplo en R

Conjunto de datos

El set de datos Wage del paquete ISRL contiene información sobre 3000 trabajadores. Entre las 12 variables registradas se encuentra el salario (wage) y la edad (age). Dada la relación no lineal existente entre estas dos variables, se recurre a un modelo polinómico de grado 4 que permita predecir el salario en función de la edad.

suppressMessages(library(ISLR))
suppressMessages(library(boot))
suppressMessages(library(plotly))
data("Wage")

Comparación de modelos por contraste de hipótesis ANOVA

modelo_1 <- lm(wage ~ age, data = Wage)
modelo_2 <- lm(wage ~ poly(age, 2), data = Wage)
modelo_3 <- lm(wage ~ poly(age, 3), data = Wage)
modelo_4 <- lm(wage ~ poly(age, 4), data = Wage)
anova(modelo_1, modelo_2, modelo_3, modelo_4)
## Analysis of Variance Table
## 
## Model 1: wage ~ age
## Model 2: wage ~ poly(age, 2)
## Model 3: wage ~ poly(age, 3)
## Model 4: wage ~ poly(age, 4)
##   Res.Df     RSS Df Sum of Sq        F    Pr(>F)    
## 1   2998 5022216                                    
## 2   2997 4793430  1    228786 143.6025 < 2.2e-16 ***
## 3   2996 4777674  1     15756   9.8894  0.001679 ** 
## 4   2995 4771604  1      6070   3.8101  0.051039 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Validación cruzada

Mediante cross-validation se identifica con que polinomio se consigue el mejor modelo. El proceso consiste en ajustar un modelo para cada grado de polinomio y estimar su test error (Mean Square Error). El mejor modelo es aquel a partir del cual ya no hay una reducción sustancial del test error.

cv_MSE_k10 <- rep(NA,10)

for (i in 1:10) {
  modelo <- glm(wage ~ poly(age, i), data = Wage)
  set.seed(17)
  cv_MSE_k10[i] <- cv.glm(data = Wage, glmfit = modelo, K = 10)$delta[1]
}
p4 <- ggplot(data = data.frame(polinomio = 1:10, cv_MSE = cv_MSE_k10),
             aes(x = polinomio, y = cv_MSE)) +
      geom_point(colour = c("firebrick3")) +
      geom_path()

Ejemplo 2. Regresión polinómica logística

Se genera la variable categorica

Se realiza la creación de una variable binaria para aquellos salarios > 250000 dolares para ajustar el modelo.

Wage$wage_superior250 <- I(Wage$wage > 250)

Ajuste del modelo logistico

Se ajustan tres modelos Logit, esto teniendo en cuenta el resultado obtenido mediante validacion cruzada que arrojo que el polinomio con mejor ajuste es el de grado 3.

modelo_logit <- glm(wage_superior250  ~ poly(age, 2), family = "binomial", data = Wage)

modelo_logit1 <- glm(wage_superior250  ~ poly(age, 3), family = "binomial", data = Wage)

modelo_logit2 <- glm(wage_superior250  ~ poly(age, 4), family = "binomial", data = Wage)

Comparación de modelos logit

G4 <- ggplot(Wage, aes(x = age, y = wage)) + geom_point(colour = "black") +
  stat_smooth(method = 'lm', formula = y ~ poly(x, 1), aes(colour = 'Lineal'), se = FALSE) +
  stat_smooth(method = 'glm', formula = y ~ poly(x, 2), aes(colour = 'Grado 2'), se = FALSE) +
  stat_smooth(method = 'glm', formula = y ~ poly(x, 3), aes(colour = 'Grado 3'), se = FALSE) +
  stat_smooth(method = 'glm', formula = y ~ poly(x, 4), aes(colour = 'Grado 4'), se = FALSE)

Bibliografía

  • Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models. CRC press.

  • Faraway, J. J. (2014). Linear models with R. CRC press.

  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An Introduction to Statistical Learning with Applications in R, Edn. 6th.

¡Gracias por tu atención!